检索结果

期刊

出版年

关键词

Please wait a minute...

选择:

导出引用
EndNote Ris BibTeX

显示/隐藏图片

Select

1. 基于Dyna框架的非参数化近似策略迭代增强学习

季挺, 张华

计算机应用 2018, 38 (5): 1230-1238. DOI: 10.11772/j.issn.1001-9081.2017102531

摘要（492）

PDF （1297KB）（478）

为解决当前近似策略迭代增强学习算法逼近器不能完全自动构建的问题，提出一种基于Dyna框架的非参数化近似策略迭代（NPAPI-Dyna）增强学习算法。引入采样缓存和采样变化率设计二级随机采样过程采集样本，基于轮廓指标、采用 K均值聚类算法实现trial-and-error过程生成核心状态基函数，采用以样本完全覆盖为目标的估计方法生成Q值函数逼近器，采用贪心策略设计动作选择器，利用对状态基函数的访问频次描述环境拓扑特征并构建环境估计模型；而后基于Dyna框架的模型辨识思想，将学习和规划过程有机结合，进一步加快了增强学习速度。一级倒立摆平衡控制的仿真实验中，当增强学习误差率为0.01时，算法学习成功率为100%，学习成功的最小尝试次数仅为2，平均尝试次数仅为7.73，角度平均绝对偏差为3.0538°，角度平均振荡范围为2.759°；当增强学习误差率为0.1时进行100次独立仿真运算，相比Online-LSPI和BLSPI算法平均需要150次以上尝试才能学习得到控制策略，而NPAPI-Dyna基本可在50次尝试内学习成功。实验分析表明，NPAPI-Dyna能够完全自动地构建、调整增强学习结构，学习结果精度较高，同时较快收敛。

参考文献 | 相关文章 | 多维度评价